”预训练学习 视觉与语言导航 自监督学习 泛化能力“ 的搜索结果

     视觉语言导航任务(Visual Language Navigation) 是让智能体跟着自然语言指令进行导航,这个任务需要同时理解自然语言指令与视角中可以看见的图像信息,然后在环境中对自身所处状态做出对应的动作,最终达到目标位置...

     并根据人类的反应进行导航视觉-对话导航除了要解决视觉语言导航所面临的共同挑战外,还需要处理好对话历史中一系列关于时间语境的问题的语言意图,以及对话和视觉场景的协同推理在本文中,我们提出了跨模态记忆网络...

10  
9  
8  
7  
6  
5  
4  
3  
2  
1